PROCEDE D'AWIELIORATION DES PERFORMANCES D'UN SYSTEME o 
MULTIPROCESSEUR COMPRENANT UNE FILE D'ATTENTE DE TRAVAUX*^^ 
ARCHITECTURE DE SYSTEME POUR LA MISE EN OEUVRE DU PROCEDE^ 
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L' invention concerne un procede d'amelioration des performances d'un syst^e 
informatique de traitement de donnees multiprocesseur comprenant une file 
d'attente de travaux et commande par un systeme d'exploitation de type 
preemptif. 

5 L'invention concerne plus particulierement un procede d'affectation optimisee des 
taches a un processeur dans un tel systeme multiprocesseur, de maniere a 
obtenir ladite amelioration des performances. 

L'invention concerne encore une architecture informatique de traitement de 
donnees de systeme pour la mise en oeuvre de ce procede. 

10 L'invention s'applique plus particulierement aux systemes multiprocesseurs 
symetriques classiques, du type dit "SMP" selon la terminologie anglo-saxonne. 
Cependant, elle s*applique egalement a des systemes multiprocesseurs du type a 
architecture de memoire a acces non uniforme, connus sous la denomination 
anglo-saxonne "NUMA" (pour "Non Uniform Memory Architecture"). 

15 L'invention s'applique plus particulierement encore a un environnement de 
systeme d'exploitation de type "UNIX" (marque deposee). Mais on doit bien 
comprendre que le procede de l'invention s'applique aussi a d'autres systemes 
d'exploitation du type preemptif. Cependant, pour fixer les idees, et sans limiter en 
quoique ce soit la portee de l'invention, on se placera dans ce qui suit dans le cas 

20 de I'environnement "UNIX" et dans le cadre de I'architecture de type "NUMA" 
precitee, sauf indication contraire. 

Dans le cadre de ['invention, les termes "tache" ou "travail" doivent etre 
consideres dans leur acceptation la plus generale, les termes usuellement utilises 
etant d'ailleurs susceptibles de varier selon I'environnement associe au systeme. 
25 A titre d'exemples non limitatifs, dans le cadre de I'environnement "UNIX" precite, 
on parle de "thread" ou de "process", selon la terminologie anglo-saxonne 
generalement utilisee. Un systeme en environnement "UNIX" comprend des 
memoires virtuelles. Le terme "process" designe generalement un ensemble 
taches (denomme "threads") qui partagent un meme espace de memoire virtuelle. 
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Par centres deux "threads" appartenant a des "process" differents s'executent 
dans un espace de memoire virtuelle distinct (generalement disjoints). Ci-apres, 
on appellera tache un "thread" et processus un "process" multitache. 
L'une des fonctions essentielle d'un systeme d'exploitation preemptif est 
5 d'accorder du temps processeur a chacune des differentes taches s'executant en 
parallele sur le systeme. 

Dans I'art connu, une solution classique pour resoudre ce probleme consiste a 
stocker dans une file d*attente les taches qui doivent etre executees et chaque 
processeur puise dans cette file d'attente pour executer une tache, jusqu'a ce 
10 qu'un evenement predetermine signale au processeur en question quMI doit 
executer une autre tache. Le processeur emet alors une requete qui est transmise 
a un organe distributeur, plus communement appele "dispatcher", selon la 
terminologie anglo-saxonne. 

Cette solution presente Tavantage de s'assurer qu'un processeur n'est inactif que 
15 si la file d'attente est vide, c'est a dire qu'il n'y a reellement aucune tache qui 
puisse etre executee. 

En contrepartie, cette solution presente plusieurs inconvenients, et notamment 
les suivants : 

quand le nombre de processeurs et le nombre de taches a traiter 
20 augmentent, la contention sur des organes appeles verrous, c'est-a-dire des 
organes protegeant Tacces a la file d'attente precitee, augmente dans des 
proportions importantes ; et 

des caches dits de "niveau 2" sont quelquefois associes a chaque 
processeur : 11 est alors interessant qu'une tache s'execute de preference sur un 
25 seul et meme processeur pour beneficier des informations stockees dans le cache 
de "niveau 2" qui lui est associe. 

La solution de type classique precitee est incapable de gerer naturellement un tel 
fonctionnement. Aussi, il est egalement connu de faire appel a des algorithmes 
complementaires qui permettent ce mode de fonctionnement. Cependant, ces 
30 algorithmes ne sont pas non plus sans inconvenients. lis sont eux-memes de plus 
en plus coCiteux, en terme de degradation des performances globales du systeme, 
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au fur et a mesure que le nombre de taches et/ou le nombre de processeurs 
augmentent. 

Uinvention vise a pallier les inconvenients des precedes et dispositifs de Tart 
connu, et dont certains viennent d'etre rappeles. 
5 L'invention se fixe pour but un precede permettant ramelioration du mecanisme 
d'affectation des taches a un processeur dans un systeme multiprocesseur, a 
systeme d'exploitation du type preemptif. 

Pour ce faire, selon une premiere caracteristique importante, dans un premier 
mode de realisation, le precede selon invention comprend des etapes consistant 
10 a realiser une partition de la file d'attente de travaux unique precitee en un 
nombre predetermine de files d'attente que Ton qualifiera d'elementaires, a 
affecter chacun des travaux a effectuer a Tune des files d'attente elementaires, a 
repartir les processeurs du systeme en groupes de processeurs, le nombre de 
groupes de processeurs etant egal au nombre de files d'attente, et d'affecter 
15 chacun des groupes de processeurs a I'une des files d'attente elementaires. 

Cette disposition permet notamment de limiter le nombre de processeurs 
accedant aux verrous et done de limiter le phenomene de contention. 

Cependant, I'experience montre que, lorsque le nombre de taches et le nombre 
de processeurs augmentent, la disposition precitee ne permet plus d'ameliorer les 
20 performances du systeme. 

Ceci est du a plusieurs phenomenes et notamment aux suivants : 

Dans un systeme d'exploitation moderne existent deux types de taches : les 
taches a prierite variable et les taches a priorite fixe. Les taches du premier type 
sent des taches dont la priorite varie en fonction du temps de processeur 
25 consomme (la politique d'erdonnancement est definie par le systeme 
d'exploitation lui-meme). Les taches du second type sent des taches dont la 
politique d'erdonnancement est fixee lers de la definition de la tache par le 
programmeur. 

En premier lieu, la gestion des taches de priorite fixe dans un systeme 
30 comportant plusieurs files d'attente, selon une premiere caracteristique du 
premier mode de l'invention, peut devenir cemplexe, car il est necessaire d'eviter 
qu'une premiere tache de priorite plus elevee soit executee apres une seconde 
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tache de priorite moins elevee. Cette gestion s'avere en effet difficile, et surtout 
couteuse en temps, lorsque les deux taches precitees sont dans deux files 
d'attente distinctes. On congoit aisement que cette difficulte augmente rapidement 
avec le nombre de taches qui se repartissent dans un grand nombre de files 
5 d'attente. 

Le probleme subsiste pour des taches de priorite variable, mais la difficulte de 
mise en oeuvre est moindre car c'est le systeme d'exploitation lui-meme qui fixe 
les priorites, et il peut se permettre de violer ses propres regies. 
En second lieu, le traitement des taches peut devenir desequilibre. Les taches 

10 etant, a priori, de natures heterogenes, le temps necessaire au traitement de 
cetles-ci peut varier dans de fortes proportions d'une tache a I'autre. II s'ensuit 
que un ou plusieurs processeurs, ou groupes de processeurs, peuvent se trouver 
en sous-charge, voire devenir inactifs, faute de taches a traiter (les files d'attente 
associees s'etant videes), alors qu*un ou plusieurs autres processeurs, ou 

15 groupes de processeurs, continuent de traiter des taches (voire etre surcharges) 
et qu'il reste des taches a executer dans les files d'attente associees a ceux-ci. 
Aussi, dans un second mode de realisation prefere de I'invention, tout en 
conservant les dispositions propres au premier mode de realisation (partition des 
files d'attente), on precede a un reequilibrage du traitement des taches, selon 

20 plusieurs variantes. 

Selon une premiere variante, le reequilibrage comprend une repartition optimisee 
des taches entre les differentes files d'attente du systeme. Le mode de repartition 
tient compte de differents parametres qui seront precises dans ce qui suit. La 
repartition peut etre effectuee, soit lors de la creation de la tache, soit lors de 

25 I'association realisee entre la tache et un fichier contenant le programme a 
executer. 

A titre d'exemple, dans un environnement de type "UNIX" precite, cette 
association est realisee par une instruction de type "exec(y\ Cette seconde 
option est preferable lorsque le systeme multiprocesseur est du type "NUMA' 
30 precite. 

Cette disposition ameliore les performances du systeme, y compris lorsque le 
nombre de taches a traiter est tres eleve. Cependant, la courbe representant les 
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performances presente des oscillations, qui traduisent des instabilites, notamment 
lorsque le nombre de taches deviant eleve. En outre, il est encore possible 
d'ameliorer les performances. 

Selon une deuxieme variante de realisation du second mode, lorsque la file 
5 d'attente associee a un processeur, ou a un groupe de processeurs, devient vide 
et que le processeur ou au moins Tun des processeurs n'a plus de tache en cours 
de traitement, le processeur recherche dans les autres files d'attente s'il existe 
des taches en attente de traitement. Si cette recherche est positive, dans un 
mode prefere, le processeur recherche ce qu'on pourra appeler la "meilleure 
10 tache a traiter", s'il existe plusieurs taches en attente. Le mode de recherche et 
de selection de cette tache sera precise dans ce qui suit. 

On doit bien comprendre que dans ces deux variantes, I'affectation des 
differentes taches aux differentes files d'attente reste inchangee. L'association 
des premiere et deuxieme variantes precitees est particulierement efficace pour 
15 I'amelioration des performances du systeme tant que de nouvelles taches se 
creent en permanence. Par centre, lorsque cet etat cesse, par exemple en fin de 
travail du systeme, on peut etre amene a constater de nouveau des desequilibres 
de charge. 

Aussi, {'invention peut comprendre une troisjeme variante de realisation, dans 
20 laquelle on reaffecte des taches entre differentes files d'attente, de fa^on 
periodique par exemple. 

Cette disposition n'a generalement que peu d'effet en regime normal (creation 
continue de taches) sur les performances d'un systeme multiprocesseur 
symetrique, c'est-a-dire du type "SMP" precite. Elle peut cependant s'averer utile 

25 pour un systeme de type "NUMA" precite. 

L' invention a done pour objet un precede d'affectation de taches dans un 
systeme de traitement de donnees numeriques multiprocesseur, a systeme 
d'exploitation preemptif, comprenant un nombre determine de processeurs 
susceptibles de traiter lesdites taches en parallele, caracterise en ce qu'il 

30 comprend au moins une phase preliminaire pendant laquelle lesdits processeurs 
sont repartis en groupes, chaque groupe comprenant des nombres predetermines 
de processeurs, en ce qu'il est associe a chacun desdits groupes de processeurs 
une file d'attente elementaire, enregistrant un nombre predetermine de taches a 
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traiter selon un ordre de priohte determine et en ce que chacune des taches de 
chacune desdites files d'attente est associee a Tun des processeurs associe a 
cette file d'attente elementaire. 

L'invention a encore pour objet une architecture de systeme multiprocesseur pour 
5 la mise en oeuvre de ce precede. 

Uinvention va maintenant etre decrite de fagon plus detaillee en se referant aux 
dessins annexes, parmi lesquels : 

la figure 1 illustre schematiquement la repartition de taches entre les 
processeurs dans une architecture de systeme multiprocesseur selon I'art connu ; 
10 - la figure 2 illustre un exemple d'architecture comportant plusieurs files 
d'attente, selon un premier mode de realisation du precede de l'invention ; 

la figure 3 illustre schematiquement un exemple d'architecture de systeme 
multiprocesseur du type dit "NUMA" ; 

la figure 4 illustre de fagon plus detaillee Tarchitecture de la figure 2 dans le 
15 cas d'un systeme multiprocesseur de type "NUMA" conforme a la figure 3 ; 

la figure 5A est un organigramme explicatif du precede de l'invention selon 
une premiere variante d'un second mode de realisation du precede de l'invention 
et la figure 5B illustre schematiquement une architecture de mise en oeuvre de 
cette variante ; 

20 - la figure 6B est un organigramme explicatif du precede de l'invention selon 
une deuxieme variante du second mode de realisation du precede de invention 
et la figure 6A illustre schematiquement une architecture de mise en oeuvre de 
cette variante ; 

la figure 7 illustre schematiquement une architecture de mise en oeuvre 
25 d'une troisieme variante du second mode de realisation du precede de Tinvention 

;et 

la figure 8 est une courbe permettant de comparer les performances 
obtenues par les dispositions propres a ces trois vahantes de realisation par 
rapport a I'art connu. 

30 Dans ce qui suit, sans en limiter en quel que ce soit la portee, on se placera dans 
un environnement de systeme d'exploitation de type "UNIX". Les taches serent 
done, comme il a ete indique, censtituees par des "threads". 
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La figure 1 illustre schematiquement une architecture de systeme 
multiprocesseur et les principaux dispositifs mis en oeuvre dans le mecanisme de 
repartition des taches selon I'art connu. 

On n'a represents sur la figure 1 que les elements necessaires a la bonne 
5 comprehension de ce mecanisme. On a suppose que le systeme 
multiprocesseur 1 comprenait un ensemble 2 de /? processeurs, references 20 

a 2n. 

Dans Tenvironnement precite, on prevoit une table 4 enregistrant la liste de 
toutes les taches a traiter, soit m taches 7i a 7777 dans I'exemple decrit, un organe 
10 de distribution des taches 3, ou "dispatcher" selon la terminologie anglo-saxonne, 
et une file d'attente unique 5, ou "run queue" selon la terminologie anglo-saxonne, 
constitute par une liste de taches rangees selon un ordre de priorite preetabli. II 
s'agit generalement d'une structure de type "premier entre -premier sorti" ou 
"FIFO", selon la terminologie anglo-saxonne. 
15 De fa^on generale, un ensemble "file d'attente" (ci-apres appele ensemble de file 
d'attente) est constitue d'une serie d'objets et de methodes necessaires pour 
traiter la file d'attente. II comprend : 

le processeur appartenant a l*ensemble de file tfattente et represents par 
une structure de donnees qui sur le systeme ou a ete realise I'invention, est 
20 appelee "ppda" (pour " Per-Processor Data Area") ; 

les taches appartenant a Tensemble de file d'attente, chaque tache etant 
representee par une structure de tache ; 
la structure de la file d'attente ; 

les methodes permettant d'ajouter ou de retirer des taches de la file 
25 d'attente ; et 

les methodes pour initialiser la file d'attente. 
Un processeur se refere a la structure de la file d'attente par un pointeur 
adressant la structure de donnees "ppda structure'' precitee. Une tache se refere 
a la structure de tache par un pointeur. La structure de file d'attente comprend 
30 usuellement un certain nombre de donnees ou informations relatives au 
distributeur (verrou, table de priorite, liste des processeurs, etc.). 
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Une tache peut se trouver dans deux etats principaux : un premier etat dit 
"executable", dans lequel elle est susceptible d'etre effectivement traitee et un 
second etat dit "dormant", c'est-a-dire d'attente d'un evenement la faisant passer 
au premier etat. Quand une tache passe d'un etat a I'autre, le noyau du systeme 
5 d'exploitation ou "kernel", selon la terminologie anglo-saxonne, utilise le pointeur 
de file d'attente pour ajouter ou enlever la tache en question de la liste des taches 
executables dans la structure de file d'attente. La tache de plus haute priorite est 
executee par I'un ou I'autre des processeurs, 20 a 2/7, qui a emis une requete de 
traitement (/? etant le nombre total de processeurs du systeme 1 ), 
10 Un mecanisme dit "de verrou" est utilise dans un certain nombre de 
circonstances, pour eviter un acces concurrent a une tache, et notamment 
lorsqu'une tache est ajoutee ou retiree de la file d'attente 5, ou lorsqu'elie change 
d'etat. 

On conceit aisement que ce mecanisme de verrou global soit generateur de 
15 contentions lorsqu'il est frequemment utilise et n'autorise qu'une faible scalabilite. 
Get inconvenient est amplifie lorsque le systeme multiprocesseur est du type 
"NUMA" precite. 

Aussi, selon une caracteristique importante de Tinvention, dans un premier mode 
de realisation, on prevoit une partition de la file d'attente unique, et des verrous 

20 qui lui sont associes, en plusieurs ensembles de file d'attente et de verrous. 

La figure 2 illustre schematiquement un exemple d'architecture de ce type. Le 
systeme 1 comprend, comme precedemment, plusieurs processeurs. Cependant, 
ces processeurs ont ete rassembles en groupes de processeurs, par exemple 
trois groupes references Ga a Gc- Chaque groupe, Ga a Gc, peut comprendre un 

25 nombre identique ou non de processeurs. Sur la figure 2, a titre d'exemple, on a 
suppose arbitrairement que le groupe Ga comprenait deux processeurs, 20a 
21a, le groupe Gb. trois processeurs, 20b a 22/), et le groupe Gc, un seul 
processeur, 20c- 

En outre, selon une premiere caracteristique importante de I'invention, la file 
30 d'attente unique (figure 1 : 5) est desormais divisee en une pluralite de files 
d'attente. De fa^on plus precise encore, le nombre de files d'attente est egal au 
nombre de groupes de processeurs, soit trois files d'attente dans I'exemple de la 
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figure 2 : 5a a 5c, chaque file d'attente etant associee a I'un des groupes de 
processeurs, Ga a Gc- 

En outre, et selon un autre aspect important, chaque tache, T-] a Tm, est 
affectee a une file d'attente particuliere, 5a a 5o. et a une seule. 
5 Ces affectations et associations s'effectuent, comme il le sera montre ci-apres, 
en regard de la figure 4, a Taide de jeux de pointeurs. 

Le choix du nombre de groupes de processeurs, et done du nombre de files 
elementaires, depend de nombreux parametres dans un systeme multiprocesseur 
de caracteristiques donnees. Generalement, cette repartition ne peut pas etre 

10 obtenue par des calculs prealables, mais par rexperimentation et la mesure. 

Le but que ce fixe invention est d'augmenter les performances globales du 
systeme par le biais d'une meilleure repartition des taches entre processeurs 
individuels. Aussi, les experimentations et tests precites consisteront, dans une 
phase initiate, a definir des programmes de test et de reference, dits "benchmark'* 

15 selon la terminologie anglo-saxonne, et de les faire executer par le systeme. La 
repartition des processeurs en groupes associes a des files d'attente 
elementaires donnant les meilleurs resultats, d'un point de vue performances, est 
retenue a ce stade. La configuration obtenue est generalement "gelee'* et utilisee 
pour les systemes de meme structure fabriques par la suite. 

20 il est d'ailleurs a presumer que, a priori, les meilleures performances devraient 
etre atteintes en associant une file d'attente a chacun des processeurs. En 
d'autres termes, chaque groupe serait reduit a un seul processeur. Mais cette 
repartition peut engendrer des difficultes de realisation. Aussi, un compromis est 
generalement prefere. 

25 On va maintenant decrire de fagon plus detaillee ce premier mode de realisation 
du precede de repartition des taches selon I'invention. 

Cependant, comme il a ete indique, les architectures des systemes 
multiprocesseurs du type "NUMA" accentuant les problemes, on va se placer 
dans ce cadre et rappeier brievement les caracteristiques principales d'une telle 
30 architecture par reference a la figure 3, 

Le systeme 1 est divise en modules, par exemple en deux modules, Mq et M^ 
comme represents sur la figure 3 (ce nombre pouvant etre quelconque). Chaque 
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module, Mq et Mi, comprend un nombre quelconque de processeurs pouvant 
fonctionner en parallele. De fa?on pratique, le nombre de processeurs est limite a 
quelques unites, typiquement a quatre : 200 a 203 et 210 a 213, respectivement. 
En effet, lorsque le nombre de processeurs en parallele augmente, les 
5 performances du systeme global augmentent tout d'abord sensiblement 
lineairement, puis la courbe s'inflechit, Le nombre quatre precite represente en 
general une vaieur optinriale. Les processeurs de chaque module, Mo et Mi , sont 
connectes a des bus internes aux modules, So et Si respectivement, et chaque 
module comprend notamment une memoire centrale, Memo et Mem^. Les 
10 modules, Mo et Mi, et leurs memoires associees, Memo et Memi, ferment 
chacun un sous-systeme de type "SMP" precite. Les modules, Mo et Mi, sont 
relies entre eux par un lien L et un systeme de caches, Ci et C2, qui constituent 
un prolongement des bus internes precites. 

On congoit aisement que, par exemple, la lecture ou I'ecriture d'une donnee de 
15 ou dans une memoire externe a un module, par un processeur de ce module, se 
traduise par une degradation des performances du systeme, par rapport a la 
meme operation entierement executee a I'interieur d*un meme module. Les 
performances sont egalement degradees lorsque les donnees doivent transiter 
d'un module a I'autre par le lien qui ne peut generalement pas fonctionner a la 
20 meme vitesse qu'un bus interne. 

Aussi, on a propose des precedes permettant d'obvier tout ou partie des 
problemes specifiques poses par les architectures de type "NUMA", precedes qui 
sortent du cadre precis de invention. 

Cependant, le precede de I'invention, dans son premier mode de realisation, 
25 puisqu'il permet de limiter les contentions, du fait de la partition des files d'attente 
et des verrous associes, trouve une application particulierement 
avantageusement pour ce type d*architecture. 

La figure 4 illustre de fa?on plus detaillee un exemple d*architecture de type 
"NUMA** dans laquelle est mis en oeuvre le precede de I'invention. On n'a 
30 represente que les elements strictement necessaires a la bonne comprehension 
de invention. Les elements communs aux figures precedentes portent les memes 
references et ne seront re-decrits qu'en tant que de besoin. Comme 
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precedemment, on a suppose que le systeme multiprocesseur 1 ne comprenait 
que deux modules, Mq et Mi, chacun comprenant le meme nombre de 
processeurs, soit quatre processeurs : 200 a 203 et 210 a 213, respectivement 
Le nombre de modules peut naturellement etre quelconque. 
5 Dans le cadre d'une architecture "NUMA'\ il existe une partition naturelle des 
processeurs du systeme 1 en groupes, en I'occurrence une repartition en modules 
(deux modules dans I'exemple de la figure 4 : A^o et A//i). On pourrait done 
associer une file d'attente a chaque module. Cependant cette configuration n'est 
pas obligatoire. 

10 Sur la figure 4, a titre d'exemple, on a represents une configuration differente. 
Bien que Ton ait prevu deux files d'attente. 5a et 5b, une par module Mq et Mi , on 
a associe les processeurs 200 et 201, du module Mq, a la file d'attente 5a et les 
processeurs 202 et 203, du module A//1, a la file d'attente 5/^. Le fonctionnement 
des processeurs 210 a 213 du module /Wi n'est pas decrit ci-apres. Ces 

15 processeurs pourraient etre associes aussi, par exemple, a la file d'attente 5b. 

Le systeme 1 comprend egalement, comme precedemment, une table des taches 
a executer 4 et un distributeur de taches 3 recevant des requetes emises par les 
processeurs 2. De fagon plus precise, pour fixer les idees, on a suppose que la 
table 4 avait onze positions, referencees 4a a 4k, Chaque position est destinee a 

20 enregistrer une tache elementaire. Certaines positions peuvent etre vides a un 
instant donne, comme la position 4e dans I'exemple de la figure 4, de sorte qu'il 
existe seulement dix taches en attente d'execution, 7i a Tio. Les taches 71 a T4 
sent enregistrees dans les positions 4a a 4d de la table 4, et les taches 75 a 7io 
sont enregistrees dans les positions 4f a 4/c. Comme il a ete indique, certaines 

25 taches peuvent etre "dormantes". Sur la figure 4, a titre d'exemple, on a 
represents deux taches "dormantes" 7a a 79, enregistrees dans les positions 4/ et 
4y, respectivement. Ces deux dernieres taches sont dites "ancrees", car en attente 
de I'apparition d'un evenement reference EV sur la figure 4, evenement qui les 
fera passer a I'etat "executable". 
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Comme il a ete indique, chaque processeur est associe a une structure de 
donnee "ppda" qui Tidentifie. Ces structures de donnees comprennent au moins 
deux series de pointeurs. 

La premiere serie de pointeurs (representes en trait plein) associe a chaque 
processeur une file d'attente. Dans I'exemple de la figure 4, les pointeurs 
references p200 ©t p201 associent la file attente 5a aux processeurs 200 et 201 , 
et les pointeurs references p202 et p203 associent la file d'attente 5^ aux 
processeurs 202 et 203. 

La seconde serie de pointeurs (representee en trait plein) lie entre eux la 
cascade de processeurs associes a une meme file d'attente. Ces pointeurs 
pourraient etre denommes "prochain processeur dans la file d'attente'*. Le 
pointeur reference po indique que le prochain processeur lie a la file d'attente 5a, 
apres le processeur 200, est le processeur 201 , Le pointeur reference pi indique 
que le prochain processeur lie a la file d'attente 5/), apres le processeur 202, est 
le processeur 203. 

De fagon analogue, les structures de donnees associees aux files d'attente 
comprennent plusieurs series de descripteurs, constitues par des pointeurs. 

Une premiere serie de pointeurs (representes en trait mixte), ppsa et pp5£), 
associe chaque file d'attente, 5a et 5b, a un groupe de processeurs, plus 
precisement au premier processeur de ce groupe, identifie par sa structure de 
donnees "ppda". Dans I'exemple de la figure 4, le pointeur pp5a associe la file 
d'attente 5a au processeur 200, Le pointeur ppsb associe la file d'attente 5p au 
processeur 202. 

II existe une deuxieme serie de pointeurs, dans I'exemple un seul reference pfs 
(represents en trait plein), pointant sur la file d'attente suivante, en I'occurrence la 
file d'attente 5b- 

II existe enfin une troisieme serie de pointeurs (representes en trait mixte), pTi, 
p7'3, p7"5 et pT^Q, chacun pointant sur une des taches de la table 4, plus 
precisement sur la premiere tache d'une cascade ordonnee de taches, comme il 
le sera montre ci-apres. Dans I'exemple de la figure 4, p7i et p73 associent a la 
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file d'attente 5a les taches et 73, respectivement, et pT5 et pT\o associent a 
la file d'attente 5b les taches 75 et 7io, respectivement. 

Dans la table 4, les taches sont ordonnees par ordre de priorite. La structure de 
description de chaque tache comprend au moins trois series de donnees 
5 constitutes par des pointeurs. Pour chaque tache, le pointeur de la premiere 
serie permet de connaitre [a tache precedente et le pointeur de la deuxieme serie, 
la tache suivante. Ces pointeurs (representes en trait plein) n'ont pas ete 
expressement references et sont symbolises, sur la figure 4, par des doubles 
fleches. 

10 Selon un aspect important du precede de Tinvention, chaque tache, y compris les 
taches dites "dormantes" sont associees a une des files d'attente, 5a ou 5b, dans 
I'exemple de la figure 4. Cette association est realisee grace a une troisieme serie 
de pointeurs (representes en trait plein), references p5ai a p5a4, et p5b5 a 
p5ibl0, respectivement. Les pointeurs p5ai a p5a4 associent les taches 

15 respectives 7i a 74^ a la file d'attente 5a, et les pointeurs p5b5 a p5dio associent 
les taches respectives 75 a 7io a la file d'attente 5b- 

Dans I'exemple precis decrit sur la figure 4, il existe deux "paquets'* distincts de 
taches liees en cascade pour chacune des files d'attentes, respectivement 5a et 
5b : 71-72 et 73-74 pour la file d'attente 5a, et 75 a Tj et 7io, pour la file 
20 d'attente 55. Les taches 78 et 7g sont liees entre elles, mais sont a I'etat 
"dormant". II n'existe pas de pointeur associant ces taches a la file 5ib dans cet 
etat. 

Comme il a ete rappele, il existe des taches a priorite fixe et des taches a priorite 
variable. Pour les taches du premier type, il est obligatoire que I'ordre des 

25 priorites soit respecte. les taches de plus fortes priorites devant etre traitees avant 
les autres. Pour ce faire, on peut reserver une file d'attente aux taches a priorite 
fixe. Toutefois, cette disposition n'est pas toujours envisageable. C'est le cas par 
exemple lorsqu'un processus comprend des taches liees a un processeur donne. 
La tache doit alors resider dans la file d'attente associee a ce processeur ou au 

30 groupe auquel il appartient. L'ordre des priorites est traite a I'interieur de cette file 
d'attente. 
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En resume de ce qui vient d'etre decrit, le precede selon I'invention, dans le 
premier mode de realisation qui consiste a demultiplier les files d'attente, a 
affecter chaque file d'attente a un groupe de processeurs et a affecter chaque 
tache a une file d'attente permet bien d'ameliorer les performances globales du 
5 systeme. En effet les contentions sont reduites, car les verrous sont egalement 
distribues. 

En outre, le precede permet, dans une architecture de type "NUMA" d'implanter 
un mecanisme dit de "Weak Affinity", selon la terminologie anglo-saxonne. Un tel 
mecanisme favorise I'execution d'une tache sur un processeur d'un module 

10 unique, ce qui permet de tirer un plus grand beneficie de la memoire cache dite 
de "niveau 3" associee au module. Or, puisqu'il est possible d'associer une file 
d'attente a des processeurs appartenant a un seul module, le distributeur peut 
aisement confiner les taches d'un processus dans un seul module. 
Le precede selon le premier mode de realisation trouve cependant des limites 

15 lorsque le nombre de taches et de groupes de processeurs augmentent 
fortement. En effet, lors de la creation "physique" d'une tache celle-ci doit etre 
affectee a I'une des files d'attente du systeme, en faisant usage d'un mecanisme 
de distribution donne. Jusqu'a present, il a ete suppose implicitement que la 
distribution des taches etait realisee sur une base d'equi-repartition temporelle 

20 entre les differentes files d'attente, dans la mesure ou elles ne sont pas pleines. 
Pour ce faire, on peut utiliser un algorithme bien connu du type "round robin", 
c'est-a-dire a tour de role. Une telle methode n'est pas sans inconvenients. En 
effet, dans les conditions precitees, les taches presentant des caracteristiques 
non homogenes, notamment en ce qui concerne le temps de traitement 

25 necessaire, il peut arriver qu'une ou plusieurs files d'attente soient vides ou peu 
chargees, et done que les processeurs des groupes qui leur sont associes soient 
en sous-charge, voire inactifs pour le moins jusqu'a rapparition de nouvelles 
taches et a leur affectation a ces files d'attente. En sens inverse, une ou plusieurs 
autres files d'attente peuvent presenter des surcharges importantes. II apparait 

30 done un phenomene de desequilibre de charges, qui a d'autant plus de chance de 
se produire que le nombre de files d'attente et le nombre de taches a traiter sont 
eleves. L'augmentation escomptee des performances globales du systeme est 
alors contrebalancee par ce phenomene parasite. Dans certains cas 
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particulierement defavorables, au-dessus d'un seuil donne de charge de travail, 
seuil qui depend des ressources propres a un systeme particulier, 11 arrive de 
constater que les dispositions du procede de I'invention sont contre-productives, 
en ce sens que les performances du systeme sont moins bonnes que celles d'un 
5 systeme de Tart connu presentant les memes ressources informatiques. 

Aussi, selon un second mode de realisation, mode de realisation prefere, 
susceptible de plusieurs variantes, on adopte des dispositions supplementaires 
permettant un (re-)equilibrage de la charge entre les differentes files d'attentes, 
ou pour le moins un traitement optimise des taches reparties dans les files 

10 d'attente, de maniere a ce que les processeurs soient utilises de fagon optimisee. 
On doit bien comprendre cependant que, selon ce second mode de realisation, 
dans toutes ses variantes, les dispositions propres au premier mode sont 
conservees. Notamment, on repartit les processeurs en groupes (qui peuvent 
coTncider avec une repartition en modules dans un systeme d'architecture de type 

15 "NUMA") et on prevoit plusieurs files d'attente, une par groupe de processeurs. 

Les operations necessaires pour obtenir cette configuration a files d'attente 
multiples, generalement effectuees une fois pour toutes, constituent done une 
phase que Ton pourra qualifier de preliminaire. En mode operationnel, un (re- 
)equilibrage des taches entre files d'attente ou de la charge de travail entre 

20 processeurs va etre obtenu selon trois mecanismes, constituant precisement trois 
variantes du second mode de realisation. II doit d'ailleurs etre note que ces trois 
mecanismes peuvent coexister et ne sont pas exclusifs I'un de I'autre. Tout au 
contraire, dans un mode de realisation prefere, on cumulera ces trois 
mecanismes, pour le moins les deux premiers qui donnent les meilleurs resultats 

25 quant aux objectifs poursuivis par I'invention, comme il le sera precise ci-apres. 

Selon la premiere variante de realisation, un equilibrage des taches est obtenu 
en les repartissant de fagon optimisee entre les differentes files d'attente 
lorsqu'elles apparaissent "physiquement", et non plus simplement a tour de role 
("round robin" precite). La fagon precise de choisir une file d'attente va etre 

30 precisee ci-apres. 

Selon la deuxieme variante de realisation, un reequilibrage du traitement des 
taches est obtenu en optimisant rutilisation effective des processeurs. Lorsqu'un 
processeur detecte que la file d'attente qui lui est associee est vide et qu'il n'a 



16 

plus de tache en cours de traitement, il va chercher une tache a traiter dans une 
autre file d'attente, dite eloignee, en effectuant un balayage des autres files 
d'attente du systeme, jusqu'a ce qu'il trouve une file d'attente non vide et dont la 
charge est superieure, a priori, a un seuil determine. Le choix d'une tache precise 
5 dans la file d'attente selectionnee, s'effectue selon un processus qui va etre 
detaille ci-apres. De fagon pratique, c'est le "dispatcher" qui va piloter ces 
operations et attribuer la tache choisie, selon des criteres preetablis, au 
processeur demandeur. On peut qualifier ce processus de "vo/ de temps de 
traitement processeuf"* (la ressource informatique que constitue ce processeur est 

10 en effet reaffectee provisoirement a une file d'attente eloignee qui lui ne lui est 
pas associee) ou encore "d'aide ^ d'autres composants du systeme*\ 
Dans les deux variantes ci-dessus, une tache donnee, meme si elle est mise en 
relation avec un processeur etranger a sa file d'attente, reste associee a celle-ci: 
Lorsque le processeur precite a termine son traitement, la tache est remise dans 

15 sa file d'attente initiale (et non pas dans celle du processeur ayant effectue le 
traitement). 

Dans la troisieme variante par centre, lorsqu'un desequilibre est detecte au 
niveau global du systeme, des files d'attente sont reequilibrees. Pour ce faire, on 
reaffecte des taches en les deplagant physiquement d'une file d'attente a une 

20 autre. Ce reequilibrage peut s'effectuer sur une base reguliere, par exemple 
toutes les secondes, sous la commande d'un organe appele ordonnanceur ou 
"scheduler" selon la terminologie anglo-saxonne, organe que Ton trouve 
ctassiquement dans les systemes informatiques. De fagon pratique, dans cette 
troisieme variante, on ne reequilibre pas systematiquement toutes les files 

25 d'attentes. On utilise egalement des seuils qui sont determines de la fagon 
detaillee ci-apres, 

Ces trois variantes du second mode de realisation, notamment les deux 
premieres, permettent d'augmenter les performances du systeme, meme lorsque 
le nombre de taches et le nombre de groupes de processeurs (et done de files 
30 d'attente) sont eleves. 

On va maintenant detainer et preciser les trois variantes du second mode de 
realisation. 
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Selon la premiere variante de realisation, lors de la creation d'une tache a 
executer, celle-ci va etre aiguillee vers une des files d'attente du systeme, de 
faQon a optimiser la charge globale du systeme. 

L'organigramme de la figure 5A illustre les principales etapes du processus. Lors 
5 d'une premiere etape, il est determine si une nouvelle tache est liee a une file 
d'attente predeterminee, c'est-a-dire si elle doit etre traitee dans un processeur, 
ou un groupe de processeurs, associe a cette file d'attente. Si le test est positif 
(branche "OUI"), la tache est aiguillee sur cette file d'attente particuiiere 5x par 
exemple (figure 5B). Si le test est negatif (branche "NON"), le processus de 
10 recherche de selection proprement dite d'une file d^attente est initialise. II s'agit de 
la file d'attente la moins chargee du systeme 1, par exemple la file d'attente 5y 
(figure 5B). 

La recherche de cette file d'attente 5y est effectuee par un organe 6, qui peut 
etre logique ou materiel, comme illustre schematiquement par la figure 5B. 
15 On a suppose, que le systeme 1 comprend au total p files d'attente : 5a, 5x, 
5y, 5p, associees chacune a (au moins) un processeur : 2a, 2x, 2y, 
2p. Les processeurs sont associes chacun a une memoire /We/7?a, Memx, 
Memy, Mem p. L'organe 6 scrute la charge des files d'attente : 5a, 5x, 

5y, 5p,. 

20 Plusieurs precedes peuvent etre mis en oeuvre pour determiner la charge d'un 
ensemble de file d'attente particulier. De fagon avantageuse, dans cette variante 
de realisation du precede de Tinvention, la charge d'une file d'attente est 
determinee en tenant compte a la fois de I'utilisation du processeur associe a la 
file et de {'utilisation de la memoire associee a ce processeur. On parle done 
25 d'une charge composite qui obeit a la relation suivante : 

Charge_composite#y = charge_CPU#y + charge_Mem#y (1 ), 

relation dans iaquelle CPU#y est le processeur ou le groupe de processeurs 
associe a la file d'attente #y et Mem#y la memoire associee aux processeurs. 
Le premier terme peut lui-meme etre calcule a partir de la multiplication des 
30 parametres suivants : le coefficient de charge du processeur, que Ton appellera 
coef_charge_CPU#y, le nombre de taches en cours d'execution, que Ton 
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appellera nb_tache#y, et un parametre representatif de la charge moyenne du 
processeur par tache, que Ton appellera moyenne_charge_CPU#y par_tache. 
De meme, en ce qui concerne le second terme, le calcul est effectue a partir de 
trois parametres similaires coef_charge_Mem#y, nbjtache#y et 

5 moyenne_charge_Mem#y parjtache, 

Les parametres coef_charge_CPU#y et coef_charge_Mem#y sont des 
constantes ponderees et moyenne_charge_CPU#y parjtache et 
moyennejcharge_Mem#y parjtache sont des variables calculees pour chaque 
ensemble de file d'attente. 

10 II s'ensuit que la relation (1 ) peut etre reecrite de la fagon suivante : 

Charge_composite#y = nbjtache#y * charge_FA#y (2), 
relation dans laquelle charge_FA#y est une donnee variable stockee dans la 
structure de file d'attente et determinee par I'ordonnanceur ("scheduler"), par 
exemple toutes les secondes, ou par tout autre organe ou processus active 

15 regulierement. Get organe peut etre I'organe 6, si celui-ci regoit des signaux 
d'horioge H appropries. La charge est aussi calculee a chaque fois qu'une 
instruction d'execution est initiee. 

La variable charge_FA#y est une variable composite comprenant des constantes 
{coef_charge_CPU#y et coefjcharge_Mem#y) qui peuvent etre stockees dans 

20 une variable globale et sont susceptible d'etre ajustee ("tunable") par 
I'administrateur du systeme pour obtenir un resultat optimum. Les autres 
composantes de la variable charge_FA#y sont determinees elles-memes a partir 
de plusieurs parametres decrivant le systeme, notamment a partir du nombre de 
taches executables, de statistiques tenues a jour par le "scheduler" concernant 

25 les files d'attente et de Toccupation des memoires, etc. Ces statistiques, pour la 
plupart, sont generalement disponibles dans les systemes informatiques 
modernes et sont utilisees a d'autres fins que celles propres a I'invention. Le 
surcoCit du aux dispositions propres a invention, en terme de temps de calcul 
supplementaire, est done negligeable. 
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En ce qui concerne plus particulierement les calculs permettant de determiner la 
charge d'une memoire, il peut etre fait appel a des methodes bien connues 
mettant en cBuvre des algorithmes d'estimation iineaire ou non lineaire 
Lors de la creation d'une nouvelle tache 7z, et une fois que la file d'attente la 
5 moins chargee a ete trouvee par Torgane 6, par exemple la file d'attente 5y, la 
nouvelle tache Tz est aiguillee vers cette file d'attente par I'organe 6, Get 
aiguillage a ete symbolise, sur la figure 5B, par un simple commutateur K, 
Ces dispositions presentent de nombreux avantages, notamment les suivants : 
a/ elles permettent de repondre tres rapidement a des modifications 
10 egalement rapides du comportement du systeme 1 ; 

b/ la determination de la charge composite est simple, car basee sur deux 
valeurs qui peuvent etre recherchees dans une meme ligne de la memoire 
cache de "niveau 2'* ; 

c/ le mecanisme n'est pas fige : il pourrait inclure d*autres variables, par 
15 exemple I'equilibrage de la charge de circuits d'entrees-sorties ("I/O") ; 

d/ le desequilibre dans des modules materiels est automatiquement pris en 
charge (c'est-a-dire le nombre de processeurs et/ou la taille memoire) : en effet 
le nombre de processeurs est pris en compte du fait que le parametre 
moyenne_charge_Mem#y parjtache est relatif a une charge par processeur et 
20 la taille memoire est prise en compte du fait que le nombre de pages memoire 

(ou d'entites similaires) depend de la taille memoire ; et 

el le mecanisme s'adapte de lui-meme au jeu de ressources : s'il existe 
plusieurs files d'attente partageant un meme pool de memoire, la charge de la 
memoire est la meme pour tous les modules et seule la charge des 
25 processeurs est significative. 

L'experience montre que les dispositions propres a cette premiere variante du 
second mode permettent d'ameliorer les performances globaies du systeme, 
meme en presence d'un grand nombre de files d'attente et de taches a executer. 
Cependant, on peut constater dans certaines circonstances I'apparition 
30 d'instabilites. Par exemple, si Ton trace une courbe representant le nombre de 
taches executees par unite de temps (par exemple par heure) en fonction du 
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nombre d'utilisateurs du systeme. ces instabilites se traduisent par des 
oscillations de la courbe. 

On a represente sur la figure 8 I'allure de la courbe representant revolution du 
nombre de taches executees par heure (chaque tache etant representee par 
5 exemple par un script) en fonction du nombre d'utilisateurs du systeme. La courbe 
C represente Failure des performances d'un systeme non modifie, c'est-a-dire un 
systeme de Tart connu. La courbe Ca illustre le fonctionnement d'un systeme 
comportant les meme ressources informatiques, mais dans lequel les dispositions 
propres a la premiere variante du second mode de realisation du precede de 

10 I'invention ont ete implantees. On constate que la courbe Ca est (dans sa plus 
grande partie) situee au-dessus de la courbe C, ce qui signifie que les 
performances ont ete ameliorees. Mais la courbe Ca presente des oscillations 
autour d'une position moyenne (representee par une interpolation en traits 
interrompus C'a)- On constate aussi, dans Texemple de la figure 8, que certaines 

15 oscillations font passer la courbe Ca en dessous de la courbe C. Pour ces 
portions de courbe, le systeme est moins performant qu'un systeme equivalent de 
I'art connu. 

Aussi, 11 est preferentiellement fait appel a la deuxieme variante de realisation du 
second mode du precede selon I'invention, dont les dispositions specifiques 

20 peuvent se cumuler avec celles de la premiere variante. 

Conformement a cette deuxieme variante du second mode de realisation du 
precede selon I'invention, lorsqu'un processeur constate que la file d'attente qui 
lui est associee est vide et qu'il devient inactif, il va chercher une autre tache 
executable dans une liste d'attente eloignee, non vide, ou pour le moins dont le 

25 taux de charge est superieur a un seuil determine. Cependant, la tache 
selectionnee ne peut etre quelconque. Eile doit repondre a certains criteres qui 
vont etre precises ci-apres. 

La figure 6A illustre schematiquement un mode de recherche possible d'une 
tache dans les files d'attentes du systeme 1. Les elements communs aux figures 
30 precedentes portent les memes references et ne seront re-decrits qu'en tant que 
de besoin. 



21 

De fa?on habituelle, comme il a ete montre en regard de la figure 4, les 
processeurs emettent des requetes revues par le "dispatcher" 3. On suppose ici 
que la file d'attente 5q du processeur 2q est vide et que celui-ci devient inactif. Le 
"dispatcher" 3 regoit une requete de traitement en provenance de ce processeur 
5 2q, Selon la deuxieme variante du second mode de realisation du precede, on 
prevoit un organe 7, qui peut etre materiel ou logique, qui est charge de balayer 
t'etat des differentes files d'attente du systeme 1, soit au total p files d*attentes : 
5a. 5y, 5q. 

Le processus de recherche d'une tache executable comprend plusieurs etapes 

10 resumees schematiquement par le diagramme de la figure 6B. La premiere etape 
consiste en un balayage des files d'attente une par une (on commence, par 
exemple a la file de rang arbitraire n = 0). Pour chaque file d'attente, un test est 
realise pour savoir si la file est vide ou non. Si la file est vide, le balayage est de 
nouveau re-execute, apres incrementation du numero de la file d'attente : n = /7+1 

15 et verification qu'il reste des files d'attente a scruter (test : n+1>p). Lprsque le test 
est positif, cela signifie qu'il n'y a pas de file d'attente vide, et le balayage se 
termine. Le processeur reste alors inactif jusqu'a I'arrive d'un evenement (top 
d'horloge, mise en attente d'une tache dans la file d'attente). 
Lorsque I'organe 7 trouve une file d'attente non vide, par exemple la file d'attente 

20 5y (figure 6B), il effectue une etape de selection d'une des taches presentes dans 
la file d'attente, en respectant des criteres qui vont etre precises. 
De meme, le choix de la file d'attente peut etre effectue, non sur le simple fait 
qu'elle soit vide, mais de preference sur un critere de seuil d'occupation minimal 
donne, comme il va Tetre montre egalement. 

25 Le precede conforme a cette deuxieme variante presente trois difficultes qui sont 
les suivantes : 

a/ la determination d'un critere precis pour decider qu'un processeur 2q doit 
"aider" une file d'attente eloignee 5y ; 

b/ la gestion du mecanisme de verrou associe a la file d'attente 5y ; et 
30 d la selection d'une tache precise dans cette file d'attente 5y. 

En ce qui concerne la decision "d'aide", I'execution d'une tache affectee a une 
file d'attente eloignee ne doit pas perturber le fonctionnement des memoires 
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caches du systeme et degrader les performances globales de ce systeme, ce qui 
irait a I'encontre du but que ce fixe I'invention. En consequence, le mecanisme de 
re-affectation de taches ne peut pas etre mis oeuvre systematiquement, du moins 
sans precautions particulieres. 

11 est necessaire que certains criteres soient satisfaits, et parmi lesquels : 

a/ le taux de charge moyen du processeur devrait etre inferieur a un seuil 
determine, pour fixer les idees typiquement 50 % ; 

b/ le taux de charge moyen par processeur de I'ensemble de file d'attente 
"aidee" devrait etre superieur a un seuil determine, pour fixer les idees 
typiquement egal a 1 1 0 % ; et 

c/ la charge instantanee processeur de I'ensemble de file d'attente "aidee" 

devrait etre superieur a un seuil determine. 
Ces criteres doivent done etre pris en compte dans le processus de selection 
d'une file d'attente et d'une tache precise de cette file d'attente. 
En outre, il est a noter que certains evenements peuvent faire avorter Toperation 
de re-affectation : 

1/ des taches locales necessitent d'etre executes ; 

21 le verrou de la file d'attente selectionne ne peut etre acquis ; 

3/ la tache selectionnee n'est plus executable lorsque le verrou est acquis ; et 

4/ aucune tache executable ne peut etre trouvee. 
Les parametres charge moyenne et charge instantanee peuvent etre calcules par 
I'organe 7. 

En ce qui concerne la gestion d'un verrou critique, il y a lieu de remarquer que 
son maintien doit etre le plus court possible, meme si le processus de recherche 
d'une tache est moins performant d'un point de vue du processeur local. Le 
verrou d'une file d'attente est plus critique que le verrou d'une tache de cette file 
d'attente. 

II s'ensuit que le processus comprend avantageusement les etapes suivantes : 

- deplacement dans la file d'attente non verrouillee, en vue de la selection 
d'une tache executable ; 

- verrouillage de la tache selectionnee dans cette file d'attente ; 
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- verrouillage de la file d'attente "aidee", en prenant soin de prevoir un delai 
maximum ("time-out"), de maniere a eviter un blocage permanent ("dead- 
lock") ; 

- test pour determiner si la tache est toujours a I'etat executable ; 
5 - extraction de cette tache de la file d'attente ; 

- deverrouillage de la file d'attente ; et 

- distribution de la tache, de fa?on habituelie. 

En ce qui concerne le choix d'une tache, un grand nombre de facteurs doivent 
etre pris en compte, et parmi lesquels les suivants : 
10 1/ I'affinite avec un processeur, c'est-a-dire le fait que la derniere distribution 

de la tache s'est effectuee sur ce processeur ; 

2/ I'affinite avec un module, dans le cas d'une architecture de type "NUMA", 
c'est-a-dire le fait que la derniere distribution de la tache s'est effectuee sur ce 
module ; 

IS 3/ la priorite affectee a une tache ; 

4/ la localisation de la tache ; 
5/ le fait que la tache ait deja ete "aidee" ; 
6/ le fait que le processus soit mono-tache ; 
7/ la quantite de memoire accedee par la tache ; 
20 8/ I'utilisation du processeur ; et 

9/ la duree de vie de la tache. 
En ce qui concerne le facteur 3/ (priorite), 11 est preferable de "sauter" les tache 
de plus haute priorite, c'est-a-dire les premieres taches dans la file d'attente 
"aidee". En effet, la probabilite est grande qu'elles soient prises en charge par un 
25 processeur local, du fait precisement de la haute priorite qui leur est associee, 
avant qu'elle puisse etre traitee par le processeur eloigne. L'utilisation d'un seuil 
predetermine semble etre une solution appropriee pour cette partie du processus. 
En outre, les taches de plus faibles priorite sont generalement, en moyenne 
statistique, des taches qui utilisent le plus le processeur. 
30 La determination d'une valeur de seuil est importante. En effet, si la valeur de 
seuil est trop basse, c'est-a-dire que le nombre de taches sautees est trop faible, 
le mecanisme d'aide se trouve alors souvent en conflit avec le mecanisme 



24 

standard de distribution des taches, c'est-a-dire le mecanisme commun a I'art 
connu. En sens contraire, si le seuil est fixe a une valeur trop haute, aucune tache 
ne pourra etre trouvee et le mecanisme d'aide s'avere completement inefficace. 
De fagon preferentielle, pour etre aussi independant que faire ce peut de la 
charge de travail, on met en oeuvre un precede auto-adaptatif, par exemple le 
suivant : 

Le nombre de taches sautees est fixe a une valeur comprise entre le nombre de 
processeurs et le nombre de taches executables dans I'ensemble de file d'attente. 
Cette valeur est incrementee d'une unite chaque fois que la tache choisie pour 
etre "aidee" est, soit deja verrouillee, soit n'est pas a I'etat executable. Cette 
valeur est decrementee d'une unite chaque fois qu'aucune tache n'est trouvee, 
lorsque le nombre maximum de taches a balayer est superieur a la moitie du 
nombre de taches executables. 

Le nombre maximum de taches a balayer est fixe a une valeur comprise entre 
I'unite et le nombre de taches executables dans I'ensemble de file d'attente. Cette 
valeur est incrementee d'une unite chaque fois qu'aucune tache n'est trouvee ou 
chaque fois que la tache choisie se trouve dans le dernier quart des taches 
balayees (taches de plus basses priorites). Cette valeur est decrementee d'une 
unite chaque fois que la tache choisie se trouve dans le premier quart des taches 
balayees (taches de plus hautes priorites). 

Le facteur 4/ (localisation) est, a priori, un facteur tres important. Cependant, ce 
facteur est generalement difficile a determiner, bien que, dans un environnement 
de type "UNIX", la localisation de la tache soit connue par segment de memoire. 

En ce qui concerne le facteur 5/, on peut generalement admettre que, si une 
tache a deja ete "aidee", elle peut deja resider dans plusieurs modules. II s'ensuit 
que de la deplacer aiileurs ne constitue pas une operation couteuse en terme de 
degradation de performances. 

En ce qui concerne le facteur 7/, il s'agit egalement d'un facteur important, mais 
qui ne peut etre determine aisement. Deux criteres permettent d'arriver a une 
approximation raisonnable : 

a/ la taille memoire utilisee par le processus ; et 
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b/ 'Tinteractivite" de la tache, ce critere etant defini par le fait qu'une tache 
soit souvent "dormante" ou non. 

Le critere b/ peut etre obtenu a partir d'un comptage du nombre de fois ou elle 
est a Tetat "dormant", ce qui peut se deriver de statistiques generalement 
5 disponibles. 

En ce qui concerne enfin le facteur 9/, il est aise de comprendre qu'il n*est pas 
utile de tenter de prendre en charge les taches de faible duree de vie. En effet, la 
plupart d'entre elles disparaissent a court terme. 

En tenant compte de tout ou partie de ces differents facteurs, il est possible de 
10 determiner quelle tache doit etre selectionnee dans une file d*attente, en 
definissant un cout individuel associe a chaque facteur, et d'en deduire un cout 
global associe a une tache particuliere. On peut, pour ce faire construire une 
table a deux entrees : facteurs - coCits. La tache presentant le cout global le plus 
faible est selectionnee, c'est-a-dire celle causant la degradation minimale des 
15 performances du systeme. Les calculs necessaires a cette determination et a 
celle du seuil precite pour sauter un nombre predetermine de taches peuvent etre 
effectues par Torgane 7, seul ou en cooperation avec d'autres composants du 
systeme. 

Si on se reporte de nouveau a la figure 8, on obtient la courbe Cb qui reste 
20 toujours au-dessus de la courbe C et ne presente plus d*oscillations. La deuxieme 
variante du second mode de realisation du precede permet done d'ameliorer les 
performances globales du systeme. 

Dependant, les premiere et deuxieme variantes permettent une augmentation 
effective des performances globales du systeme tant que de nouvelles taches se 
25 creent. Lorsque le processus de creation de taches decroTt fortement, on constate 
de nouveau Tapparition d'un desequilibre des charges des files d'attentes. C'est 
le cas, par exemple, en fin de travail de travail du systeme. 

Aussi, on peut mettre en oeuvre une troisieme variante du second mode de 
realisation du precede selon invention. 
30 Dans les deux premieres variantes, les associations "taches - files d'attente" 
restent invariables. Selon cette troisieme variante de realisation, cumulable avec 
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les deux autres, on reaffecte physiquement les taches en les deplagant entre files 
d'attente. 

La figure 7 11 lustre schematiquement cette troisieme variante. On prevoit un 
organe 8, materiel ou logique, charge de determine si le systeme est desequilibre, 
5 en ce qui concerne les charges des files d*attente, 5a, 5x 5y, 5p. le 
mecanisme est declenche periodiquement, par exemple toutes les secondes par 
le "scheduler" ou tout autre dispositif fournissant des signaux d'horloge H. 

Lorsqu'un desequilibre est constate par I'organe 8, les taches des files d'attente, 
5a, 5x 5y, 5p, vont etre redistribuees pour essayer de trouver un 
10 nouvel equiiibre. 

De fa9on pratique, et preferentiellement, seules les taches appartenant a la file 
d'attente la plus chargee, arbitrairement 5x, vont etre deplacees. En outre, 
toujours de fagon preferentielle, on considere egalement un seuil de desequilibre 
predetermine, en dessous duquel aucun reequilibrage n'est effectue. 
15 Toujours de fagon preferentielle, on deplace, non des taches individuelles, mais 
toutes les taches appartenant a un meme processus. En effet, en moyenne 
statistique, les taches appartenant a un meme processus ont toutes les chances 
de cooperer entre elles. II est done approprie de les deplacer globalement. 

Enfin, pour minimiser le cout du reequilibrage, on mesure la charge de travail 
20 presentee par les processus multitaches et la taille memoire necessaire. C'est le 
processus qui presente la plus forte charge de travail et necessite ie minimum de 
taille memoire qui est deplace vers la file d'attente la moins chargee. 

De fagon plus precise, les principales etapes de cette troisieme variante sont les 
suivantes : 

25 1/ determination du vecteur de charge composite pour chaque ensemble de 

file d'attente, soit CL ; 

2/ determination du vecteur de charge composite moyenne, soit ACL ; 
3/ determination des vecteurs de desequilibre pour chaque ensemble de file 
d'attente /, soit ADi ; 

30 4/ determination de la file d'attente ayant le plus fort vecteurs de desequilibre, 

soit llADi ; 
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5/ determination du nombre moyen de taches pouvant etre migrees, soit 
ANT ; et 

5/ determination de la taille d'une sphere de processus pouvant etre migres, 
soit SSMP. 

Pour fixer les idees, la valeur de SSMP peut etre determinee comme suit : 



aJ si ANT = 1 , alors SSMP = \\ADi 



b/ si yAA/7> 1, alors SS/WP= 



ADi 



12 ; et 



'^X{ANT'^)IANT 



0/ si la valeur de SSMP est inferieure a un seuil predetermine, Toperation de 
reequilibrage est abandonnee : le systeme est considere ne pas etre 
desequilibre. 

Pour chaque processus, on execute les etapes suivantes : 

- test de la possibilite de migration : en d'autres termes, on teste si le 
processus appartient a I'ensemble de file d'attente le plus charge, si toutes les 
taches qui le composent appartiennent a ce meme ensemble et si aucune 
tache n'est liee a un module particulier (de fagon plus generale.a un des 
groupes de processeurs) ; 

- determination de son vecteur charge composite, soit ; 
SI (JLF~AD < SSMP , determination du cout de la migration ; 



- memorisation du processus dans une liste des processus ANT a migrer, 
ces processus etant classes en fonction decroissante du rapport 

|cZp- AD||/cot//) ; 

- nouvelle determination de la charge composite (en fonction du temps 
ecoule, celle-ci ayant pu change depuis la premiere determination) et du 
desequilibre de I'ensemble de file d'attente ; et 

- pour chaque processus de la liste des processus pouvant etre migres : 

trouver la file d'attente d'indice arbitraire y pour 



- SI 



CLP "AD 



AD 



laquelle le parametre 



CLP -AD 



est minimal ; 



- migrer ce processus vers Tensemble de file d'attente le moins charge 5y ; 



et 
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- mettre a jour le facteur representatif du desequilibre des deux ensembles 

de file d'attente, soit ADx =^ADx-CLPxeiADy =ADy -CLPy. 

Le vecteur de charge composite est un vecteur a trois dimensions. En effet, ii 
depend des parametres suivants : 

- charge du processeur ; 

- charge de la memoire ; et 

- priorite. 

Les deux premiers parametres dependent a leur tour de la configuration 
materielle et logicielle precise du systeme considere : nombre de processeurs, 
taille de la memoire, nombre de pages memoire libres, etc. La determination de 
ces parametres est commune a Tart connu et obtenue par des calculs classiques, 
biens connus de I'homme de metier. Le parametre "priorite" est obtenu a partir de 
la moyenne des priorites attachees aux differentes taches. 

Theoriquement, la determination de la charge d'un ensemble de file d'attente est 
donnee par la somme des charges de processus. Mais pour accelerer cette 
determination, on la derive directement a partir de statistiques generalement 
stockees dans la structure de donnees de cet ensemble. La charge depend de 
nouveau de trois parametres : charge du processeur, charge de la memoire et 
priorite. 

La determination de la charge composite moyenne peut etre obtenue a partir de 
la relation suivante : 

ACL = ^ (3) 

P 

relation dans laquelle est la charge composite du / ^""^ ensemble de file d'attente 
et p le nombre total d*ensembles de file d'attente. 

Le desequilibre moyen peut etre determine a partir de la relation suivante : 




La determination du cout associe a une operation de migration peut etre obtenue 
en considerant que te cout principal est du a la migration de pages de memoires, 
dans un environnement de type "UNIX" (ou a I'acces a des pages eloignees) et au 
cout lie au deplacement d'une tache d'un ensemble de file d'attente a un autre. 
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Une approximation de Testimation du cout est obtenue directement par le nombre 
de pages associees au processus et par le nombre de taches devant etre 
deplacees. Dans un environnement autre que I'environnement "UNIX", Tentite 
"page de memoire" doit etre remplace par une entite equivalente. 
5 Ces modes de determination des parametres impliques ne sont precises qu'a titre 
d'exemple, pour fixer les idees. D'autres alternatives existent et sont a la portee 
de Thomme de metier 

Si on se reporte de nouveau a la figure 8, la courbe Cc illustre schematiquement 
Taliure de Tamelioration des performances par rapport a I'art connu (courbe C). 

10 Cependant, I'experience montre que, dans le cas general, l*amelioration obtenue 
par rapport a celle obtenue par la deuxieme variante est peu importante. Ceci est 
du essentiellement au fait que le deplacement physique des taches entre files 
d'attente implique un cout non negligeable, ce meme si celui-ci n'est pas 
generalise, conformement aux dispositions preferentielles qui viennent d*etre 

15 rappelees, mais au contraire selectif. On reservera cette variante du precede 
selon rinvention a une architecture de type "NUMA", car dans le cas d'une 
architecture classique de type "SMP", I'amelioration des performances n'est pas 
significative, alors que sa mise en oeuvre necessite des modifications du systeme 
d'exploitation et la presence d'organes supplementaires, materiel ou logique 

20 (figure 7 : 8). 

A la lecture de ce qui precede, on constate aisement que I'invention atteint bien 
les buts qu'elle s'est fixes. 

II doit etre clair cependant que I'invention n'est pas limitee aux seuls exempies de 
25 realisations explicitement decrits, notamment en relation avec les figures 2 et 4 a 

8. 

En particulier, les valeurs numeriques, par exemple le nombre de files d'attente, 
n'ont ete precisees que pour mieux fixer les idees. Elles dependent 
essentiellement de I'application precise visee. 
30 De meme, les modes precis de determination et de calcul des differents 
parametres evoques dans la description peuvent etre adaptes, sans sortir du 
cadre de I'invention. 
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Enfin, bien que le precede ait ete decrit de fagon detaillee dans le cadre d'un 
environnement "UNIX" et d'une architecture de type "NUMA", le precede selon 
rinvention, comme 11 a ete precedemment indique, n'est en aucun cas limite a ces 
applications particulieres. 
5 L'invention peut trouver application pour d'autres types ^architectures 
multiprocesseurs, dont le systeme d'exploitation est du type preemptif. 
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REVENDICATIONS 

1 . Procede d'affectation de taches dans un systeme de traitement de donnees 
numeriques multiprocesseur, a systeme d'exploitation preemptif, comprenant 
un nombre determine de processeurs susceptibles de traiter lesdites taches en 
parallele, caracterise en ce quMI comprend au moins une phase preliminaire 
5 pendant laquelle lesdits processeurs (20a-21a, 20b -22b, 20c) sent repartis en 

groupes (Ga, Gfe, Gc), chaque groupe comprenant des nombres predetermines 
de processeurs, en ce quMI est associe a chacun desdits groupes de 
processeurs une file d'attente elementaire (5a, 5b, 5c), enregistrant un nombre 
predetermine de taches a traiter selon un ordre de priorite determine et en ce 
10 que chacune des taches est associee a I'un des processeurs associe a cette 

file d'attente elementaire (5a, 5b, 5c). 

2- Procede selon la revendication 1, caracterise en ce que lesdits groupes 
comprennent chacun un nombre identique de processeurs (200-203, 210-213). 

3. Procede selon les revendications 1 ou 2, caracterise en ce qu'il comprend 
15 une phase preliminaire supplementaire consistant en Teiaboration d'une serie 

de tests et de mesures pour determiner le nombre de processeurs de chaque 
groupe et le nombre de groupes permettant d'atteindre les meilleures 
performances dudit systeme. 

4. Procede selon Tune quelconque des revendications 1 a 3, caracterise en ce 
20 que, I'architecture dudit systeme etant d*un type a acces de memoire non 

uniforme, dit "NUMA", et le systeme (1) etant constitue d'un nombre 
predetermine de modules (Mo, /Wi) relies entre eux, comprenant chacun un 
nombre determine de processeurs (200-203, 210-213) et des moyens de 
memorisation, chacun de ces dits modules {Mo, M^) constitue I'un desdits 
25 groupes, chaque module etant associe a une desdites files d'attente 

elementaires. 
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5. Procede selon I'une quelconque des revendications 1 a 4, caracterise en ce 
que chacun desdits processeurs est associe a une premiere structure de 
donnees qui I'identlfie, en ce que ladite premiere structure de donnees 
comprend au moins un premier jeu de pointeurs (p200 a P203) I'associant a 
I'une desdites files d'attente elementaire (5a, 5^), en ce que chacune desdites 
files d'attente elementaires (5a, 5ib) est associee a une deuxieme structure de 
donnees, en ce que ladite deuxieme structure de donnees comprend au moins 
un deuxieme jeu de pointeurs {pp5a, pp5b) I'associant a I'un desdits groupes 
de processeurs (200-201, 202-203), en ce que toutes les taches a traiter (Ti a 
710) dans ledit systeme (1) etant enregistrees dans une table (4), chacune 
desdites deuxieme structure de donnees des files d'attente elementaires (5a, 
5b) comprend en outre un troisieme jeu de pointeurs ipT^, pTs, pTio) 
associant chacune des files d'attente elementaires (5a, 5b) a I'une desdites 
taches (Ti a 71 o) enregistrees dans la table (4) ou a une serie de taches 
enchainees, et en ce que chacune desdites taches (7i a 7io) de la table (4) 
est associee a une troisieme structure de donnees qui comprend un quatrieme 
jeu de pointeurs (p5a1 a p5a4, P5P1 a psblO) I'associant a I'une desdites files 
d'attente elementaires (5a, 5ib)- 

6. Procede selon I'une quelconque des revendications 1 a 5, caracterise en ce 
qu'il comprend au moins une phase supplementaire consistant a repartir 
lesdites taches entre lesdites files d'attente elementaires (5a, 5^) en 
recherchant, lors de la creation d'une nouvelle tache a traiter (7z), la file 
d'attente elementaire la moins chargee (5y) parmi toutes lesdites files d'attente 
elementaires (5a, 5x, 5y, 5p) dudit systeme (1) et a aiguiller ladite nouvelle 
tache vers cette file d'attente elementaire, de maniere a equilibrer la charge 
globale de ce systeme (1) entre lesdites files d'attentes elementaires (5a, 5x, 

5y, 5p). 

7. Procede selon la revendication 6, caracterise en ce que ladite repartition est 
effectuer en determinant un parametre de charge dit composite associe a 
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chacune desdites files d'attente elementaires (5a, 5x, 5y, 5p), en ce que, 
chaque processeur (2a, 2x, 2y, 2p) etant associe a des moyens de memoire 
{MerriQ, Memx, Memy, Memp), ce dit parametre de charge composite est 
calcule comme etant la somme de la charge d'un processeur ou d'un groupe de 
processeurs associe a ladite file d'attente elementaire et la charge des moyens 
de memoire associes a ce processeur ou ce groupe de processeurs. 

8. Precede selon la revendication 6, caracterise en ce qu'il comprend une 
etape prealable consistant a tester si ladite nouvelle tache (7z) est liee a une 
desdites files d'attente elementaires (5a, 5x, 5y, 5p) et en ce que lorsque ledit 
test est positif a aiguiller ladite nouvelle tache vers cette file d'attente 
elementaire. 

9. Precede selon Tune quelconque des revendications 1 a 5, caracterise en ce 
qu'il comprend au moins une phase supplementaire consistant, lorsque Tune 
desdites files d'attente elementaires (5q) associee a I'un desdits groupes de 
processeurs {2q) est vide de taches executables, a rechercher une file 
d'attente elementaire (5y), dite eloignee, non vide et dans cette file d'attente 
elementaire (5y) a selectionner une tache executable par i'un desdits 
processeurs (2g) dudit groupe de processeurs associe a la file d'attente 
elementaire vide (5^) et a la transmettre a ce processeur {2q) pour y etre 
traitee, de maniere a equilibre globalement le traitement desdites taches dans 
ledit systeme (1). 

10. Precede selon la revendication 9, caracterise en ce que ladite file d'attente 
elementaire non vide (5y) doit presenter un seuil d'occupation minimal 
predetermine. 

11- Precede selon la revendication 10, caracterise en ce qu'en outre, les taches 
etant enregistrees par ordre de prierite decroissante, un nombre predetermine 
de taches est saute avant de balayer les autres taches de ladite file d'attente 
elementaire non vide (5y) pour rechercher une tache executable et la faire 
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traiter par I'un desdits processeurs {2q) dudit groupe de processeurs associe a 
la file d'attente elementaire vide {5q). 

12- Procede selon la revendication 11, caracterise en ce que ledit nombre de 
taches sautees et le nombre nnaximunn de taches balayees parmi toutes celles 
5 enregistrees dans ladite file d*attente elementaire non vide (5q) sont variables 

dans le temps et sont determines par un processus auto-adaptatif a partir du 
nombre de taches trouvees ou non pendant lesdits balayages et de la place de 
ces taches classees par ordre de priorite dans ladite file elementaire non 
vide (5g). 

10 13- Procede selon Tune quelconque des revendications 9 a 12, caracterise en 
ce que ladite tache selectionnee est celle associee a une valeur minimale d'un 
parametre dit de cout, mesurant la degradation de performances globale dudit 
systeme (1), due au traitement de ladite tache selectionnee dans ladite file 
d'attente elementaire eloignee non vide (5q) par Tun desdits processeurs dudit 

15 groupe de processeurs associe a la file d'attente elementaire vide {2q), 

14. Procede selon I'une quelconque des revendications 1 a 5, caracterise en ce 
qu'il comprend au moins une phase supplementaire comprenant au moins une 
etape de mesure periodique d'une repartition equilibree desdites taches dans 
lesdites files d'attente elementaires (5a, 5x, 5y, 5p) et, lors de la determination 

20 d'un etat desequilibre dudit systeme (1 ), une etape de deplacement selectif de 

taches d'au moins une file d'attente elementaire plus chargee (5x) vers une file 
d'attente elementaire moins chargee (5y). 

15. Procede selon la revendication 14, caracterise en ce que, lorsque ledit 
desequilibre est inferieur a un seuil determine, aucun deplacement de tache 

25 n'est realise. 

16- Procede selon les revendications 14 ou 15, caracterise en ce que tout ou 
partie desdites taches appartenant a des processus multitaches, chaque 
processus multitache necessitant une taille de memoire et une charge de 
travail determinees, il comprend une etape de mesure desdites charges de 



> 1 

35 

travail et desdites tallies de memoire, en ce qu'il comprend la selection du 
processus necessitant la plus forte charge de travail et la plus faible taille de 
memoire, et en ce que ce que toutes les taches dudit processus selectionne 
sont deplacees vers la file d'attente elementaire la moins chargee (5y). 

5 17. Precede selon la revendication 16, caracterise en ce qu'il comprend une 
etape preliminaire consistant a tester si toutes les taches dudit processus 
multitache devant etre deplacees appartiennent a I'ensemble de file d'attente 
elementaire le plus charge (5x) et si aucune tache n'est Nee a I'un desdits 
groupes. 

10 18. Precede selon Tune quelconque des revendications 1 a 17, caracterise en 
ce que ledit systeme d'exploitation est du type "UNIX" (marque deposee). 

19. Architecture de systeme de traitement de donnees numeriques 
multiprocesseur comprenant un nombre determine de processeurs pour la mise 
en oeuvre du precede d'affectation de taches a traiter aux dits processeurs 
selon Tune quelconque des revendications 1 a 18, caracterisee en ce que 
lesdits processeurs (20a-21a, 20b "22b, 20c) sont repartis en groupes (Ga, 
Gjb, Gc) et en ce qu'il est prevu une file tfattente elementaire (5a, 5c) 
associee a chacun des groupes (Ga, Gb^ Gc), chacune desdites files d^attente 
elementaires (5a, 5b, 5c) enregistrant un nombre predetermine de taches a 
traiter selon un ordre de priorite determine, de maniere a ce que chacune des 
taches de chacune desdites files d'attente elementaires (5a, 5^, 5c) soit 
associee a Tun des processeurs de cette file d'attente elementaire (20a-21ai 
20b -22b. 20c). 

20. Architecture selon la revendication 19, caracterisee en ce qu'elle comprend 
25 en outre des moyens (6) pour determiner la charge desdites files d'attente 

elementaires (5a, 5x, 5y, 5p) et pour aiguiller une nouvelle tache creee dans 
ledit systeme vers la file d'attente elementaire la moins chargee (5y). 
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21. Architecture selon la revendication 19, caracterisee en ce qu'elle comprend 
en outre, lorsque Tune (5^) desdites files elementaires (5a, 5x, 5y, 5p) 
associee a un desdits processeurs {2q) est vide, des moyens (7) pour 
rechercher une file elementaire non vide (5y), dite eloignee, et dans cette file 
elementaire (5y) une tache executable et de I'affecter au dit processeur {2q) 
pour traitement. 

22. Architecture selon la revendication 19, caracterisee en ce qu'elle comprend 
en outre des moyens (8) pour detecter un desequilibre entre files d'attente 
elementaires (5a, 5x, 5y, 5p), lorsqu*un tel desequilibre est detecte, pour 
determiner la file d'attente elementaire la moins chargee (5x) et la file d*attente 
elementaire la plus chargee (5y), et pour deplacer des taches de la file 
d'attente elementaire la moins chargee (5x) vers la file d'attente elementaire la 
plus chargee (5y). 

23- Architecture selon Tune quelconque des revendications 19 a 22, 
caracterisee en ce que, etant d'un type a acces de memoire non uniforme, dit 
"NUMA", composee de modules (/Wo, M^) relies entre eux, comprenant chacun 
un nombre determine de processeurs (200-203, 210-213) et des moyens de 
memorisation, chacun de ces dits modules (Mo, /Wi) constitue I'un desdits 
groupes, chaque module (/Wo, 'Wi) etant associe a une desdites files d'attente 
elementaires. 



ABREGE 



L' invention concerne un procede d'affectation de taches dans un systeme de 
traitement de donnees numeriques multiprocesseur a systeme d'exploitation 
preemptif et une architecture pour la mise en oeuvre de ce procede. Le systeme 
comprenant des processeurs (200-203 et 210-213) susceptibles de traiter les 
taches en parallele repartis en groupes (200-201, 202-203). Une file d'attente 
elementaire (5a, 5b) est associee a chacun des groupes de processeurs (200- 
201, 202-203) et enregistre des taches a executer. Toutes les taches a 
executer (7i a Tio) sont enregistrees dans une table (4). Chacune des taches 
(71 a 710) de la table (4) est associee a I'une des files d'attente (5a, 5b) et 
chacune des taches enregistrees dans les files d'attente (5a, 5b) est associee a 
Tun des processeurs (200 a 201 ). Les associations sont effectuees par des jeux 
de pointeurs croises (p200 a p203, pp5a, pp5b. p7i. p75, p7io, P5a1 a p5a4, 
P5b^ a P5b^0)' Dans un mode de realisation supplementaire, selon plusieurs 
variantes, on procede a un (re-)equiibrage de la charge du systeme entre files 
d'attente elementaires. 
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